Distribuição de Bases de Dados de Proveniência na Nuvem

نویسندگان

Edimar Santos

Vanessa Assis

Flavio Costa

Daniel de Oliveira

Marta Mattoso

چکیده

Resumo. Dados de proveniência no contexto de workflows científicos são peças fundamentais, pois, por meio deles, os experimentos são passíveis de reprodução e validação. O histórico da execução dos workflows é fundamental também para a gerência da execução de novos workflows uma vez que possibilitam às máquinas de workflow realizar predições sobre desempenho ou custo financeiro de nuvens de computadores. Workflows, com dados em larga escala, executados em nuvens, são com frequência alocados em máquinas virtuais distribuídas fisicamente. As soluções existentes coletam os dados de proveniência de forma distribuída e os armazenam de modo centralizado em único repositório, após o término da execução do workflow. Além da capacidade de reprodução, dados de proveniência permitem um acompanhamento refinado por parte do cientista, quando disponibilizados à medida que são gerados, durante a execução do workflow. Porém, quando os dados de proveniência só estão disponíveis para consulta após a execução do workflow, seu uso fica limitado. Para permitir consultas durante a execução do workflow, o acesso ao banco de dados de proveniência deve estar em sintonia com a máquina de execução distribuída de workflows. Este artigo discute aspectos de projeto de distribuição de dados de proveniência, levando em consideração o esquema de representação de proveniência do W3C, aspectos de processamento distribuído de consultas em nuvens de computadores e considerando a execução distribuída do workflow. A estratégia aqui adotada trouxe melhoria de desempenho para as consultas que submetemos em tempo de execução dos workflows aumentando assim a eficiência dos workflows científicos testados.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Uso de SGBDs NoSQL na Gerência da Proveniência Distribuída em Workflows Científicos

Resumo. Um fator fundamental na gerência de experimentos modelados como workflows científicos são seus dados de proveniência. Esses dados basicamente são usados para garantir a reprodutibilidade, porém nos últimos anos eles também vêm sendo usados para tarefas de monitoramento e escalonamento de atividades. Como essas tarefas demandam consultas em tempo real, conforme a quantidade de dados de p...

متن کامل

SLADB: Acordo de Nível de Serviço para Banco de Dados em Nuvem

Computação em nuvem é uma tendência recente de tecnologia cujo objetivo é proporcionar serviços sob demanda com pagamento baseado no uso. Neste ambiente, a qualidade do serviço é uma característica fundamental que deve ser fornecida pelos provedores. Existem muitos modelos para acordo de nível de serviço em nuvem. Entretanto, estes modelos são muito gerais e não abordam características do geren...

متن کامل

Comparacao de desempenho na indexacao de big geospatial Data em ambiente de nuvem computacional

With the growth of spatial data volume, known as Big Geospatial Data, some tools have been developed to allow the processing of this data in an efficient way, but for this it is fundamental to index the databases. The cloud computing has computational power and several other characteristics that are adherent to the execution of this type of application. This paper presents an analysis of indexi...

متن کامل

Recomendações para fragmentação horizontal de bases de dados XML

Resumo. A grande quantidade de dados XML disponíveis na Web e dentro das organizações traz consigo um grande desafio no processamento de consultas sobre ambientes distribuídos. Surge então a necessidade da aplicação de técnicas que permitam um processamento de consultas mais eficiente. Neste sentido, técnicas de fragmentação de dados e processamento paralelo de consultas sobre bases de dados di...

متن کامل

Gerência de Proveniência Multigranular em Linked Data com a Abordagem ETL4LinkedProv

This paper presents the ETL4LinkedProv approach to manage the collection and publication of provenance metadata with different levels of granularity, as Linked Data. The approach uses ETL workflows and a novel component named Provenance Collector Agent. Its application in a real scenario is presented and the impact of the fine-grained provenance in the ETL workflow runtime and in the number of ...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2013

Distribuição de Bases de Dados de Proveniência na Nuvem

نویسندگان

چکیده

منابع مشابه

Uso de SGBDs NoSQL na Gerência da Proveniência Distribuída em Workflows Científicos

SLADB: Acordo de Nível de Serviço para Banco de Dados em Nuvem

Comparacao de desempenho na indexacao de big geospatial Data em ambiente de nuvem computacional

Recomendações para fragmentação horizontal de bases de dados XML

Gerência de Proveniência Multigranular em Linked Data com a Abordagem ETL4LinkedProv

عنوان ژورنال:

اشتراک گذاری